对于类似房价数据这样的小任务数据量,我们通常使用线性回归,代码并不需要执行地非常快。然而,如果您在练习 1A 或1B里是建议使用 for 循环的,但对于较大规模的问题其执行效率就比较低了。这是因为在 MATLAB 里,循环按顺序执行整个样本是缓慢的。为了避免(使用) for 循环,我们想要重写(这部分)代码,使其能够尽可能使用在 MATLAB 里执行高效的向量或矩阵操作。(这点同样适用于其他语言,包括 Python,C/C++ —— 我们要尽可能地重用已经优化过的操作。)
下面是一些在 MATLAB 里各种向量化的操作方法。
我们经常一次计算多个矩阵或矢量的乘积(矩阵乘法)。例如,当我们对数据集(其中,参数
因此,对于任意的参数
所以,当执行线性回归(Linear Regression)时,我们可以通过计算
假设我们有前文说到的由众多向量
X_norm = sqrt( sum(X.^2,1) );
Y = bsxfun(@rdivide, X, X_norm);
该代码将先对 bsxfun
函数的作用可以看成是对变量 Xnorm
的扩展或者复制,我们便会得到与矩阵 $X$ 维度相同的变量,再对其逐个元素使用二元操作函数(匿名函数 @rdivide
对同维矩阵的同位置的所有元素,实现右除操作)。在上面的例子中,实现了用二元操作函数对每个元素 $X{ji} = x^{(i)}{j}$ 除以在向量 $X\text{norm}$中与其列位置对应的元素,最后得到 $Y{ji} = X_{ji} / {X\text{norm}}_i = x_j^{(i)}/||x^{(i)}||_2$。bsxfun
可以与几乎所有的二元操作函数使用(例如,@plus,@ge或@eq),更多详情可以查看有关 bsxfun
的文档。
在线性回归的梯度计算中,我们有以下形式的概括:
每当我们有通过单个索引(公式中的
因此,为了(对所有元素)全部计算,我们要计算每个
% X(j,i) = j'th coordinate of i'th example.
% y(i) = i'th value to be predicted; y is a column vector.
% theta = vector of parameters
y_hat = theta'*X; % so y_hat(i) = theta' * X(:,i). Note that y_hat is a *row-vector*.
g = X*(y_hat' - y);
返回您练习的 1A 和 1B 代码中,在 ex1a_linreg.m
和 ex1b_logreg.m
文件中,您将发现调用 minFunc
时分别使用的是文件 linear_regression_vec.m
和 logistic_regression_vec.m
,但却是被注释掉的,而不是用 linear_regression.m
和 logistic_regression.m
文件。在本次练习中,请您将 linear_regression_vec.m
和 logistic_regression_vec.m
里的代码以(前文所讲过的)向量化的方式实现并补充完整。将 ex1a_linreg.m
和 ex1b_logreg.m
文件中的注释取消掉,并比较二者代码的运行时间,检验(现在的代码)是否和先前原本的代码得到的结果是一样的。